Projet final : Kit Big Data

Le projet qui suit a pour but l'analyse de l'épreuve du VendéeGlobe 2020. Les données sont disponibles à travers 2 liens internet : nous avons d'un côté des fichiers excels 703 fichiers excels correspondant aux classements quotidiens des skippers tout au long de l'épreuve, et de l'autre côté nous avons les caractéristiques des skippers et de leurs voiliers qui sont recensés sur une page web du site du VendéeGlobe. L'objectif est dans un premier temps d'importer les données, pour cela nous téléchargerons manuellement les fichiers excels sur notre ordinateur, puis nous les importerons via une procédure pandas. Nous réaliserons ensuite un étape de web scrapping à travers laquelle nous importerons les données des caractéristiques des skippers à partir du site web où ils se trouvent. Nous procèderont ensuite à une étape de nettoyage des données sur chacun des 2 dataframes générés, puis nous réaliseront une jointure des 2 tables.

Par la suite nous réaliserons une étape d'analyse descriptives de nos données, puis une étape d'analyse, et enfin nous finiront avec une étape de visualisation des distances parcourues.

1. Importation des données

1.1 Importation des classements

1.1.1 Importation des fichiers excels

1.1.2 Nettoyage du dataframe

On constate que les valeurs manquantes concernent souvent les mêmes lignes dans le dataframe.

Nous décidons de supprimer les lignes contenant des valeurs manquantes, car elles concernent les skippers qui ont abandonnés la course et donc pour lesquels on a aucune information sur leurs courses.

Réécriture de certaines variables

Après avoir comparé les données des variables relatives aux skippers avec les données issues du deuxième lien contenant les caractéristiques des skippers, nous décidons de corriger 2 des valeurs concernant les numéros de voile de 2 skippers.

Conversion des données de latitude et longétude en coordonnées décimales afin de pouvoir mieux les exploiter par la suite.
Changement de formats des variables
Conversion de certains ordres de grandeurs

On constate que certaines variables numériques ont des ordres de grandeurs très spécifiques aux domaines de la voile mais beaucoup moins parlante pour nous, on décide donc de convertir certains ordre de grandeurs afin de rendre par la suite l'analyse beaucoup plus parlante de notre point de vue.

1.2 Importation des caractéristiques des skippers

1.2.1 Web scrapping

1.2.2 Nettoyage du dataframe

Correction du noms de certains skippers à partir du premier dataframe
Correction des noms d'architectes
Correction des noms de chantiers
Correction d'un numéro de voile manquant à partir du premier dataframe
Correction du poids de déplacements manquants de 2 skippers à partir de recherches sur internet
Correction de certaines valeure du voile de quille à partir de recherche sur internet
Réécriture des variables Nb_derives et Voile_quille
Reformatage des variables

2. Jointure des 2 tables

Jointure des 2 dataframe en un seul

On décide de supprimer les variables Voile et Num_voile car ce sont des variables d'identification des skippers et nous garderons leurs noms afin de les dissocier.

3. Analyse Descriptive

3.1 Analyse des variables

3.1.1 Analyse uni-variée des variables quantitatives

Statistiques descriptives des variables numériques
Boxplots des distributions

En regardant le tableau des statistiques descriptives et les 2 derniers boxplots des distributions des variables quantitatives on remarque clairement les différences d'échelles que présentent ces différentes variables.

3.1.1 Analyse uni-variée des variables qualitatives

Dans cette édition du Vendée Globe 2020 un total de 8 nationalités sont représentées, parmi lesquelles une majorité de francais (25) suivi de 2 britaniques, puis un représentant du Japon, de la Finlande, de l'Italie, de la Suisse, de l'Espagne, et de Monaco.

Parmi les 33 skippers participants au Vendée Globe, 19 d'entre eux possèdent des voiliers équipés de foils et 14 n'en n'ont pas.

Sur les 33 voiliers, nous avons 13 voiles de quilles qui sont principalement composées d'acier, 12 voiles de quilles sont composées principalement d'acier fogé, 5 autres sont principalement composés de fibre de carbone, 2 voiles de quilles sont composées d'acier soudé, et enfin un voile de quille qui est principalement composé d'inox usiné.

Nous avons un total de 12 sociétés qui sont les architectes de ces différents voiliers, parmis lesquels l'association entre les groupes VPLP et Verdier est à l'origine des plans de construction de 10 des 33 voiliers, soit 30% du total ce qui est une proportion très importante, puisque les deuxièmes architectes en nombre de voiliers sont les groupes Bruce Farr Design, Groupe Finot-Conq et Owen Clarke Design, qui ne comptablisent chacun "que" 3 voiliers à leurs actifs. Par ailleurs, en dehors de leur collabortion les groupes VPLP et Verdier sont également impliqués de façon individuel dans la conception de 2 autres voiliers chacun, ce qui porte à 14 le nombre de voiliers totales qui ont étés conçut par les 2 groupes, ce qui représente plus de 42% du total des voiliers : proportion qui semble traduire une forte notoriété de la part de ces 2 groupes dans le marché d'architecture des voiliers de compétition.

3.2 Analyse bi-variée et multivariée

3.2.1 Matrice des corélations

3.2.2 Analyse de l'impact des foils sur les classements et vitesses moyennes des voiliers

On constate que les voiliers dotés de foils ont obtenus en moyenne de bien meilleur classement que ceux qui n'en ont pas. Par ailleurs, les foils permettent aux voiliers d'avoir une vitesse utile (VGM) en moyenne supérieure à celle des voiliers sans foils.

Ces graphiques permettent de voir que sur l'ensemble de la course les voiliers avec foils présentaient des vitesses nettement supérieures aux autres, et de ce fait ils parcouraient des distances bien plus importantes. On peut donc présumer que la présence de foils joue un rôle très important sur la vitesse des voiliers et donc sur les classements.

3.2.3 Analyse de l'impact des caractéristiques techniques des voiliers sur le classement et la vitesse moyenne

3.2.4 Analyse de l'impact de la présence d'un foil sur le classement et la vitesse d'un voilier

Dans la figure précédente nous avons représenté graphiquement les relations entre le rang, la vitesse et le type de dérive des voiliers. Nous constatons graphiquement que les voiliers qui ont des foils présentent globalement des moyennes de vitesses et des rangs plus élevés que les voiliers qui ont des dérives classiques.

3.2.5 Analyse de la corrélation entre le classement et la vitesse utile (VMG) des voiliers

3.2.6 Visualisation des distances et des classements des voiliers

4. Distances et Mapping

4.1 Visualisation des distances totales parcourues par skippers

Afin de calculer les distances totales parcourues par les skippers, nous avons choisi d'additionner la variable "Distance2" de chaque skippers car elle correspond à la distance parcourue depuis le dernier classement, et donc il s'agit là du moyen le plus simple de calculer la distance totale. Pour ce faire, nous sommes parti de la ligne correspondant à la première ligne du deuxième classement établit (ligne 31) car les valeurs de Distance2 du premier classement ne correspondent pas aux données de la course dont il est ici question.

Classement des distances totales parcourues
Tableau des distances parcourues et du classement final
$$ \begin{array}{|l|c|c|c|c|} \hline \text { Skipper } & \text { Distance totale réalisée (km) } & \text { Distance de la course (km) } & \text { Classement final } \\ \hline \text { Thomas Ruyant } & 56763,43 & 45177,68 & 6 \\ \hline \text { Louis Burton } & 56413,21 & 45177,68 & 3 \\ \hline \text { Boris Herrmann } & 56023,18 & 45177,68 & 5 \\ \hline \text { Yannick Bestaven } & 56010,03 & 45177,68 & 1 \\ \hline \text { Giancarlo Pedote } & 55491,1 & 45177,68 & 8 \\ \hline \text { Benjamin Dutreux } & 54428,42 & 45177,68 & 9 \\ \hline \text { Damien Seguin } & 54346,01 & 45177,68 & 7 \\ \hline \text { Jean Le Cam } & 54191,37 & 45177,68 & 4 \\ \hline \text { Armel Tripon } & 54150,07 & 45177,68 & 11 \\ \hline \text { Maxime Sorel } & 53116,65 & 45177,68 & 10 \\ \hline \text { Jérémie Beyou } & 53001,27 & 45177,68 & 13 \\ \hline \text { Charlie Dalin } & 51929,52 & 45177,68 & 2 \\ \hline \text { Clarisse Cremer } & 51578,94 & 45177,68 & 12 \\ \hline \text { Romain Attanasio } & 49951,03 & 45177,68 & 14 \\ \hline \text { Kojiro Shiraishi } & 49326,72 & 45177,68 & 16 \\ \hline \text { Stéphane Le Diraison } & 48908,91 & 45177,68 & 18 \\ \hline \text { Arnaud Boissieres } & 48795,94 & 45177,68 & 15 \\ \hline \text { Alan Roura } & 48771,30 & 45177,68 & 17 \\ \hline \text { Didac Costa } & 47926,61 & 45177,68 & 20 \\ \hline \text { Pip Hare } & 47536,95 & 45177,68 & 19 \\ \hline \text { Manuel Cousin } & 47403,97 & 45177,68 & 23 \\ \hline \text { Clément Giraud } & 46180,36 & 45177,68 & 21 \\ \hline \text { Miranda Merron } & 45615,31 & 45177,68 & 22 \\ \hline \text { Ari Huusela } & 43638,12 & 45177,68 & 25 \\ \hline \text { Isabelle Joschke } & 43378,84 & 45177,68 & { Disqualifié } \\ \hline \text { Alexia Barrier } & 42527,29 & 45177,68 & 24 \\ \hline \text { Sébastien Destremau } & 34256,07 & 45177,68 & { Disqualifié } \\ \hline \text { Sébastien Simon } & 21089,83 & 45177,68 & { Disqualifié } \\ \hline \text { Samantha Davies } & 21031,86 & 45177,68 & { Disqualifié } \\ \hline \text { Fabrice Amedeo } & 20615,90 & 45177,68 & { Disqualifié } \\ \hline \text { Alex Thomson } & 20425,15 & 45177,68 & { Disqualifié } \\ \hline \text { Kevin Escoffier } & 19195,98 & 45177,68 & { Disqualifié } \\ \hline \text { Nicolas Troussel } & 9707,62 & 45177,68 & { Disqualifié } \\ \hline \end{array} $$

Ce tableau présente les distances totales parcourues par les skippers durant l'ensemble de la course, on a d'un côté les skippers qui ont réussit à atteindre la ligne d'arriver, et de l'autre côté les skippers qui n'ont pas pu finir la course pour cause d'abandon. Il permet de mettre en évidence les skippers qui ont su le plus optimiser leurs distances de parcours tout au long de la course. Ainsi, nous remarquons que le vainqueur de l'édition du VendéeGlobe 2020 arrive en 4ème position des skippers qui ont parcourues les plus longues distances. Un détail attire plus particulièrement notre attention, en effet, le vice-champion (2ème) de l'édition n'est que le 12ème participant en terme de distances parcourues, ce qui laisse témoigner d'une grande habilité et technique dans le commandement du voilier.

4.2 Mapping des parcours des 3 premiers du VendéeGlobe 2020

Ce mapping est très intéressant car il permet de visualiser l'itinéraire totale des 3 premiers skippers, et notamment il permet d'apercevoir la façon dont le 2ème skipper (Charlie Dalin) a clairement mieux optimisé la distance de son parcours par rapport aux 2 autres skippers.